项目背景Anthropic 作为 AI 领域的领军企业,推出了 Skills 开源仓库,为开发者提供了一系列强大的 AI 能力增强模块。 Anthropic Skills。 全面的中文翻译我们对 Anthropic Skills 仓库中的所有技能模块进行了专业翻译,覆盖:技能描述和使用场景工作流程和操作指南代码示例和最佳实践参考文档和资源链接2. Anthropic Skills,通过网站可以在 10 分钟内了解所有可用技能及其用途。 项目链接中文文档站:https://ai-skills.332020520.xyz/Anthropic 原仓库:https://github.com/anthropics/skills
Anthropic 发布了一篇关于 Agent 的文章《Building effective agents》,这篇文章分享了 Anthropic 从与客户共建 agents 的过程中学到的经验,并为开发者们提供如何构建有价值的 SWE-bench(https://www.anthropic.com/research/swe-bench-sonnet) 是一个用于评估大型语言模型(LLM)在软件工程任务中的表现的基准测试平台。 Anthropic Computer Use Demo(https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo )是一个帮助开发者快速开始使用 Anthropic 的 Claude AI模型进行操作电脑的例子。 原文地址:https://www.anthropic.com/research/building-effective-agents
本文将从Anthropic的深度分享中,提炼出五个最令人惊讶、最具影响力的核心教训,它们将彻底改变你对AI智能体评估的看法。 然而,Anthropic的经验恰恰相反:等到智能体规模化后才开始构建评估,你会遇到更大的困难。更重要的是,评估的价值会随着时间复利增长。早期投入不仅不会拖慢你,反而会成为未来加速迭代的引擎。 以Anthropic提到的 Opus 4.5 模型为例,在一个预订航班的测试任务中,它没有遵循预设的流程,而是通过发现政策中的一个漏洞,为用户找到了一个更好的解决方案。 Anthropic指出,这种方法“过于僵化,会导致测试过于脆弱”,因为它会惩罚那些评估设计者未曾预料到的、同样有效的创新方法。 例如,Anthropic在对Opus 4.5模型进行CORE-Bench基准测试时,通过人工审查记录发现,其分数从最初的42%跃升至95%。原因何在?
刚刚,AI 公司 Anthropic 公布了大模型思考过程,他们构建了一种「AI 显微镜」,以识别模型中的活动模式和信息流动。 带着这些疑问,Anthropic 从神经科学领域汲取灵感 —— 该学科长期致力于研究思维生物体内复杂的运作机制 —— 并尝试构建一种「AI 显微镜」,用以识别模型活动模式和信息流动轨迹。 为了解释这一研究,Anthropic 今天连发了两篇论文。 实验过程中,Anthropic 研究者对在模型中的发现感到惊讶:在诗歌案例中,他们原本打算证明模型不会提前规划,结果却发现它确实会提前规划。 参考链接: https://www.anthropic.com/research/tracing-thoughts-language-model © THE END 转载请联系本公众号获得授权
直到我发现了 Anthropic Skills,瞬间感觉世界清净了——AI 不用你重复讲,它就知道你想要什么。想象一下,以前要半小时才能搞定的财务报告,现在 10 分钟就搞定,你能不心动吗? 偶然发现的惊喜前阵子,我在和 Claude(Anthropic 的大模型)折腾各种任务:做 PPT、分析 Excel、生成报告……提示写到手抽筋,输出常常走偏。
本文旨在针对当前市场上两个最具统治力的官方.NET SDK——openai/openai-dotnet(OpenAI 官方库)与 anthropics/anthropic-sdk-csharp(Anthropic 2.2 Anthropic C# SDK:从社区到官方的华丽转身 与 OpenAI 库含着“金汤匙”出生不同,Anthropic 的 C# SDK 走过了一条典型的开源社区进化之路。 在很长一段时间内,Anthropic 官方并未提供 C# 支持,这导致了 tryAGI.Anthropic 等社区库的蓬勃发展。 Anthropic SDK: 默认重试 2 次。 配置透明度:Anthropic SDK 在重试配置上显得更加务实和开放。 Anthropic and Claude are trademarks of Anthropic, PBC https://github.com/tghamm/Anthropic.SDK [QUESTION
就在昨晚,Anthropic 发布了最新 Claude 4 模型[1] x 帖子 目前有这两种:Claude Sonnet 4 和 Claude Opus 4。 1] Claude 4 模型: https://x.com/AnthropicAI/status/1925591525372961127 [2] Claude 4 官方介绍: https://www.anthropic.com
修复进展 Anthropic 已经回滚了 Opus 4.1,问题基本解决。负责人表示性能已明显改善。 但用户反馈显示还有问题:语音模式经常中断,容量限制错误持续出现。 Anthropic 本想提高效率和吞吐量,结果意外影响了响应质量。 更糟糕的是,Claude Opus 4.0 也受到同样影响。 参考:https://status.anthropic.com/incidents/h26lykctfnsz
💡 摘要: Anthropic SKILLS 看着只是一堆提示词和脚本,但其精妙在于“大道至简”。本文将深入解构 SKILLS 的三层分层加载架构,探讨它如何解决传统 Agent 上下文膨胀、领域任务成功率低的核心痛点。我们将通过一个完整流程展示 SKILLS 如何工作,并延伸思考它对现有 MCP、工作流和多智能体范式带来的冲击与重构可能。同时,我们也会探讨 SKILLS 在工程实践中面临的挑战,如性能、安全和评估。
Anthropic与Claude系列背景 Anthropic由前OpenAI研究人员创立,致力于开发安全、道德且高效的AI系统。 安全考量 Anthropic在Claude 4的开发中高度重视安全和伦理问题。 这种对道德AI的承诺使Anthropic在行业中保持了良好声誉。 结语 Claude 4的发布不仅是Anthropic技术创新的里程碑,也是AI行业发展的缩影。 未来,我们期待Anthropic继续优化其模型,为AI的道德和安全发展树立标杆。 Anthropic官方发布Claude 4系列模型:https://www.anthropic.com/news/claude-4
今日凌晨敌对Anthropic发布他们的Sonnet 4.5青春版haiku 4.5,性能相当于Sonnet 4,但是价格只有1/3,并且速度更快! 性能方面,Anthropic死磕SWE-bench啊,Haiku 4.5比Sonnet 4.0高1个百分点达到73.3%! 主要博主个人制裁了anthropic,不太好评价这个haiku 4.5能力。 你怎么看呢?
下面内容翻译自 Anthropic 官方的长文《How AI Is Transforming Work at Anthropic》,基于问卷调查、深入访谈以及 Claude Code 使用数据,试图回答这样几个问题 AI 使用方式正在如何改变 Anthropic 的日常工作。 为此,我们对参与问卷的 Anthropic 工程师和研究人员中的 53 人进行了深入访谈,以理解他们在这场变革中的真实感受和思考。 为了补全这一点,我们还分析了 Anthropic 团队内部真实的 Claude Code 使用记录。 , Miles McCain, Michael Stern, Deep Ganguli 原文链接:https://anthropic.com/research/how-ai-is-transforming-work-at-anthropic
Anthropic前段时间推出的Claude 3刚刚击败GPT-4登顶伯克利LLm Arena,亚马逊反手就又给Anthropic追加了27.5亿美元的投资。 在对Anthropic追加27.5亿美元之后,这笔投资成为了亚马逊单笔最大的外部投资。 亚马逊表示,这笔投资不会影响Anthropic团队对于公司的控制权,亚马逊依然只是公司的小股东,而且没有披露实际的股权占比。 在错过了OpenAI之后,亚马逊不能再错过Anthropic了! 而在错失了OpenAI之后,亚马逊痛定思痛,终于在去年底重金投资「第二个OpenAI」—— Anthropic。 而在投资了Anthropic之后,亚马逊股价上涨了接近50%,几乎达到了历史新高。 甚至有消息称,苹果也在接洽Anthropic,希望将它的大模型服务接入苹果将要推出的AI服务和生态中。
就在刚刚,Anthropic的联创Jack Clark直言不讳地警告,我们熟知的那个互联网,正在消亡。 想象一下这个画面:你推开一扇门,走进一个房间,里面人声鼎沸,聊得热火朝天。
在最近一次公开访谈中,Anthropic 首席产品官给出了一个非常明确的判断: 下一次真正的跃迁,不是“更聪明”,而是更可靠、更稳定、更可持续地参与工作流。 结果是明确的—— Claude Code 很快在 Anthropic 内部替代了大量传统编码工具,也让外部开发者第一次感受到: AI 不只是帮你写代码,而是开始承担一段完整工作。 一个反直觉选择:模型变强后,反而“减少约束”和不断给模型“加规则”的思路不同,Anthropic 在模型能力提升后,反而删掉了一部分工具层约束。 面向 2026:AI 的角色正在发生结构性变化从 Anthropic 的整体布局来看,未来一到两年,AI 的核心形态会发生变化:不再只是工具,而是可被委派任务的协作者。 这也是 Anthropic 当前策略的核心目标: 不是展示模型有多聪明,而是持续降低不确定性。当人类开始敢于“放手”, AI 才真正从演示工具,走向生产力的一部分。
谷歌、Anthropic、微软和 OpenAI 都是 AI 领域的顶尖玩家,但现在看来,这些公司在开发更先进的 AI 大模型时都遇到了不小的困难。 OpenAI 曾接近一个重要的里程碑。 同样,期待已久的 Anthropic Claude 3.5 Opus 的发布也被推迟。 生成式 AI 在训练中高度依赖于互联网数据。 参考链接 https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai
作为最强大模型厂商的有力竞争者,Anthropic 推出的智能体功能也着实惊艳了我们一把。 Anthropic 将一年的实践经验总结成了这篇博客,机器之心在不改变原意的基础上进行了编译。 Anthropic 建议开发者从直接使用大模型的 API 开始:许多模式只需几行代码就能实现。如果选择使用框架,一定要理解其底层原理。 具体示例请参考 Anthropic 的 cookbook。 Anthropic 建议做这些拓展功能的过程中大家可以重点关注两点: 根据具体的应用场景来定制功能 确保为模型提供简单且文档完备的接口 除此之外,Anthropic 最近发布的模型上下文协议提供了一种新的实现方式
Anthropic 最近放出了一个叫 Bloom 的开源框架,专门用来测试大语言模型会不会出现某些特定行为。 print("No transcripts found yet - check if pipeline completed successfully") 实用的特性 模型支持挺很全,OpenAI、Anthropic 模型调用走的是 LiteLLM,统一了 Anthropic 和 OpenAI 的 API 接口。实验管理接入了 Weights and Biases。 Anthropic 自己做了验证实验,在 16 个前沿模型上测了 4 个对齐相关的行为,每个行为跑 100 次、重复 3 遍。 https://www.anthropic.com/research/bloom 作者:Ajay
从基于维基百科训练的模型中隔离并移除生物学知识 为了验证 SGTM 的有效性,Anthropic 在英文维基百科上训练了一个 2.54 亿参数的模型,目标是在移除生物学知识的同时保留其他能力。 Anthropic 将 SGTM 与两种数据过滤基线方法进行了对比。弱过滤:仅移除生物学类文章;强过滤:移除生物学 + 医学 + 化学 + 环境类文章。 为此,Anthropic 进行了测试:通过对模型进行对抗式微调,尝试用 50/50 混合比例的生物学数据与通用数据重新灌输生物学知识,观察其是否能够恢复。 Anthropic 还发现,这种局部化效应会随模型规模增大而增强。在 8M 到 64M 参数规模的模型中,大模型在遗忘知识向保留参数泄漏方面表现出更低的程度,这表明 SGTM 在更大模型上效果更佳。 参考链接: https://alignment.anthropic.com/2025/selective-gradient-masking/ © THE END 转载请联系本公众号获得授权 投稿或寻求报道
参考anthropic的 cookbook获取一些示例实现。4 构建模块、工作流与智能体本部分实际生产环境中观察到的智能系统常见模式。